Search results for "corpus of text files"

showing 1 items of 1 documents

Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych

2021

Autor niniejszego artykułu zgromadził ok. 2,7 mln rosyjskojęzycznych newsów internetowych. Zasadnicze cele tego tekstu stanowią: omówienie pojęcia web crawlingu w odniesieniu do pozyskiwania internetowych danych tekstowych, omówienie kwestii strukturyzacji takich danych w nieanotowanych korpusach tekstowych, a także przedstawienie wybranych aspektów analizy danych strukturyzowanych w ten sposób. Autor rozpatruje newsy internetowe jako połączenie tekstu zasadniczego oraz identyfikujących i charakteryzujących go metadanych (wyróżnionych podczas automatycznej ich ekscerpcji ze stron internetowych). Rozdział newsów na tekst zasadniczy i metadane stwarza możliwość przeprowadzenia ich analizy z d…

ogranicznik tekstucorpus of text fileszwiązki wielowyrazowetext delimiterreproduktInternet newsmulti-word expressionsweb crawlingre-productkorpus plików tekstowychquotenews internetowycudzysłówPrace Językoznawcze
researchProduct